阅读指南
上篇让你直观感受了涌现能力的震撼,中篇探讨了涌现的机制和Scaling Laws。
下篇将讨论:
最后,强调一点:不是所有能力都会通过扩大规模涌现出来。
有些能力,可能永远不会涌现,或者需要完全不同的训练方式。
可能不会涌现的能力:
模型展现出了很多"看起来像理解"的行为,但它是否真的"理解"意义?
这可能不是规模能解决的,而是需要根本性的架构改变。
ChatGPT能做多步推理,但如果要求它维持一个长篇小说的情节一致性,或者规划一个跨越几年的项目,它仍然会出问题。
这可能需要新的记忆机制和规划机制。
如果大模型真的能维持很长的记忆,并能连续推理,那这我这本书也不用吭哧吭哧的写1年了。那时候可能人人都能写出世界名著。
ChatGPT学到的都是"文本中的世界",它不知道"拿起一个杯子"是什么感觉,不知道"红色"真正看起来是什么样。这需要多模态学习(视觉、听觉、触觉。..)和与真实世界的交互。
AI界对此存在两种分歧:
这是两条截然不同的路,未来会证明谁对谁错。
你可能想不到,那篇奠定了整个大模型时代基础的论文,差点就被学术界拒之门外。
2020年1月,OpenAI发表了一篇看起来很"简单"的论文:《Scaling Laws for Neural Language Models》(神经语言模型的扩展定律)。
论文的核心发现,用一句话就能说完:
"模型的性能与参数量、数据量、算力之间,存在可预测的幂律关系。"
这篇论文在评审时遇到了很大的阻力。主要质疑包括:
质疑1:"这不就是拟合曲线吗?"
- 批评者认为:你只是在小模型上观察到一些数据点
- 然后画了一条曲线,凭什么说它能一直成立?
质疑2:"外推太大胆"
- 你在100亿参数的模型上发现规律
- 就敢预测1000亿、10000亿参数的效果?
- 这种外推太危险了
质疑3:"实用价值有限"
- 即使规律成立,又怎么样呢?
- 谁会真的去训练那么大的模型?
- 成本太高,不切实际
但OpenAI做了一个大胆的决定:相信这个规律,全力押注大模型。
2020年5月:在一些质疑声中,论文发表
2020年6月:OpenAI开始训练GPT-3(175B参数)
→ 这是当时最大的模型,参数量是之前的10倍以上
→ 训练成本:数百万美元
→ 如果Scaling Laws不成立,这笔钱就打水漂了2020年7月:GPT-3发布
→ 性能完全符合Scaling Laws的预测!
→ 学术界震惊:这个规律真的成立!
OpenAI的研究人员后来透露:
"当我们决定训练GPT-3时,内部也有很多争论。因为根据Scaling Laws,我们能预测性能会提升多少,但不知道这个提升是否足够产生质变。"
"我们是在'赌'涌现现象会发生。"
结果,他们赌对了。GPT-3不仅性能提升了,还出现了很多小模型完全没有的能力(如只需要几个例子就能学会新任务、代码生成等)。
论文的"复仇"
2020年初:论文被质疑"缺乏实用价值"
2020年末:GPT-3震惊世界,各大公司开始疯狂训练大模型
2021年:谷歌、Meta、微软纷纷发布百亿/千亿参数模型
2022年:ChatGPT发布,引爆AI革命
2023年后:这篇论文成为大模型时代的"基石"
几乎每篇大模型相关论文都会引用它从"差点被拒"到"改变世界",只用3年。
如果当时放弃了呢?唯一可以肯定的是:
大模型时代可能要推迟好几年。
涌现能力中有一个尤其特殊的能力——情境学习。
它特殊在哪?
你不需要重新训练模型,只需在提示词中给几个例子,模型就能学会一个新任务。
这意味着,你不需要收集大量标注数据,也不需要花费数周时间训练。只需要在对话框里打几行字,模型就"学会"了。
下一节,我将带你深入这个革命性的能力。
| 中文 | English | 音标 | 说明 |
|---|---|---|---|
| 涌现边界 | Emergence Boundary | /ɪˈmɜːdʒəns ˈbaʊndri/ | 仅靠扩大规模无法获得的能力所形成的上限 |
| 多模态 | Multimodal | /ˌmʌltiˈməʊdl/ | 同时处理文本、图像、音频等多种模态的能力 |
| 长期记忆 | Long-term Memory | /lɒŋ tɜːm ˈmeməri/ | 跨会话、跨年度保持信息一致的能力 |
| 因果 | Causality | /kɔːˈzæləti/ | 输入对输出的驱动关系,与相关性相区分 |
| 真实世界交互 | Real-world Interaction | /ˈrɪəl wɜːld ˌɪntərˈækʃn/ | 与物理世界或动态环境进行行动与反馈的过程 |
| 规划 | Planning | /ˈplænɪŋ/ | 针对长期目标制定多步骤行动序列的能力 |
| 智能体 | Agent | /ˈeɪdʒənt/ | 可感知环境、决策并执行动作的 AI 系统 |
| 幻象 | Mirage | /ˈmɪrɑːʒ/ | 涌现“假象”的典型比喻,对应 Schaeffer 2023 论文 |